自由图页中的手写文本识别(HTR)是一项艰巨的图像理解任务,可以为手写文档的数字化和重复使用其内容提供相关的增强。由于写作风格的变化和页面质量降解的变化,该任务在处理历史文档时变得更加具有挑战性。最先进的HTR方法通常将序列建模的复发结构与卷积神经网络进行视觉特征提取。由于卷积内核是在固定网格上定义的,并专注于所有输入像素时在输入映像时独立地独立于所有输入像素,因此该策略无视手写字符在形状,比例和规模和方向上,即使在同一文档中,并且墨水像素为比背景更相关。为了应对这些特定的HTR困难,我们建议采用可变形的卷积,这可能会根据手头的输入而变形,并更好地适应文本的几何变化。我们设计了两个可变形的架构,并在现代和历史数据集上进行了广泛的实验。实验结果证实了可变形卷积对HTR任务的适用性。
translated by 谷歌翻译
手写文本识别(HTR)是计算机视觉和自然语言处理的交集的一个开放问题。当处理历史手稿时,主要挑战是由于保存纸张支撑,手写的可变性 - 甚至在广泛的时间内的同一作者的变异性 - 以及来自古代,代表不良的数据稀缺语言。为了促进有关该主题的研究,在本文中,我们介绍了Ludovico Antonio Muratori(LAM)数据集,这是一家大型线条级的HTR HTR数据集,该数据集是由单个作者编辑的60年来编辑的意大利古代手稿。该数据集有两种配置:基本分裂和基于日期的分裂,该分裂考虑了作者的年龄。第一个设置旨在研究意大利语的古代文档中的HTR,而第二个设置则侧重于HTR系统在无法获得培训数据的时期内识别同一作者编写的文本的能力。对于这两种配置,我们都在其他线路级别的HTR基准方面分析了定量和定性特征,并介绍了最先进的HTR架构的识别性能。该数据集可在\ url {https://aimagelab.ing.unimore.it/go/lam}下载。
translated by 谷歌翻译
这项工作解决了弱监督的异常检测,其中允许预测指标不仅可以从正常示例中学习,而且还可以从训练期间提供的一些标签异常。特别是,我们处理视频流中异常活动的本地化:这是一个非常具有挑战性的情况,因为培训示例仅带有视频级别的注释(而不是帧级)。最近的几项工作提出了各种正则化术语来解决它,即通过对弱学习的框架级异常得分的稀疏性和平滑度约束。在这项工作中,我们受到自我监督学习领域的最新进展的启发,并要求模型为同一视频序列的不同增强而产生相同的分数。我们表明,执行这种对齐能够提高模型在XD暴力方面的性能。
translated by 谷歌翻译
图像文本匹配是在涉及对视觉和语言的共同理解的任务中发挥领导作用。在文献中,此任务通常被用作培训能够共同处理图像和文本的架构的预训练目标。但是,它具有直接的下游应用程序:跨模式检索,其中包括查找与给定查询文本或反之亦然相关的图像。解决此任务对于跨模式搜索引擎至关重要。许多最近的方法提出了针对图像文本匹配问题的有效解决方案,主要是使用最近的大型视觉语言(VL)变压器网络。但是,这些模型通常在计算上很昂贵,尤其是在推理时间。这样可以防止他们在大规模的跨模式检索场景中采用,几乎应该立即向用户提供结果。在本文中,我们建议通过提出对齐和提炼网络(Aladin)来填补有效性和效率之间的空白。阿拉丁首先通过在细粒度的图像和文本上对齐来产生高效的分数。然后,它通过提炼从细粒对齐方式获得的相关性分数来提炼共享的嵌入空间 - 可以进行有效的KNN搜索。我们在MS-Coco上取得了显着的结果,表明我们的方法可以与最先进的VL变形金刚竞争,同时快了近90倍。复制我们结果的代码可在https://github.com/mesnico/aladin上获得。
translated by 谷歌翻译
图像字幕模型旨在通过提供输入图像的自然语言描述来连接视觉和语言。在过去的几年中,通过学习参数模型并提出视觉特征提取的进步或建模更好的多模式连接来解决该任务。在本文中,我们研究了使用KNN记忆的图像字幕方法的开发,可以从外部语料库中检索知识以帮助生成过程。我们的架构结合了一个基于视觉相似性,可区分编码器和KNN-agn-agn-agement注意层的知识检索器,以根据过去的上下文和从外部内存检索的文本进行预测令牌。在可可数据集上进行的实验结果表明,采用明确的外部记忆可以帮助生成过程并提高标题质量。我们的工作开辟了新的途径,以更大规模改善图像字幕模型。
translated by 谷歌翻译
最大化类之间的分离构成了机器学习中众所周知的归纳偏见和许多传统算法的支柱。默认情况下,深网不配备这种电感偏差,因此通过差异优化提出了许多替代解决方案。当前的方法倾向于共同优化分类和分离:将输入与类向量对齐,并角度分离载体。本文提出了一个简单的替代方法:通过在计算SoftMax激活之前添加一个固定的矩阵乘法,将最大分离作为网络中的电感偏差编码。我们方法背后的主要观察结果是,分离不需要优化,可以在训练之前以封闭形式解决并插入网络。我们概述了一种递归方法,以获取由任何数量类别的最大可分离矢量组成的矩阵,可以通过可忽略的工程工作和计算开销添加。尽管它的性质很简单,但这个矩阵乘法提供了真正的影响。我们表明,我们的建议直接提高分类,长尾识别,分布式检测和开放式识别,从CIFAR到Imagenet。我们从经验上发现,最大分离最有效地作为固定偏见。使矩阵可学习不会增加表现。在GitHub上,封闭形式的实现和代码是在GitHub上。
translated by 谷歌翻译
基于图像的虚拟试验努力将服装的外观转移到目标人的图像上。先前的工作主要集中在上身衣服(例如T恤,衬衫和上衣)上,并忽略了全身或低身物品。这种缺点来自一个主要因素:用于基于图像的虚拟试验的当前公开可用数据集并不解释此品种,从而限制了该领域的进度。为了解决这种缺陷,我们介绍着着装代码,其中包含多类服装的图像。着装代码比基于图像的虚拟试验的公共可用数据集大于3倍以上,并且具有前视图,全身参考模型的高分辨率配对图像(1024x768)。为了生成具有高视觉质量且细节丰富的高清尝试图像,我们建议学习细粒度的区分功能。具体而言,我们利用一种语义意识歧视器,该歧视器在像素级而不是图像级或贴片级上进行预测。广泛的实验评估表明,所提出的方法在视觉质量和定量结果方面超过了基线和最先进的竞争者。着装码数据集可在https://github.com/aimagelab/dress-code上公开获得。
translated by 谷歌翻译
虽然标题模型已经获得了引人注目的结果,但在描述自然图像时,它们仍然不会涵盖现实世界概念的整个长尾分布。在本文中,我们通过在Web级自动收集的数据集上培训来解决与野外概念生成人类描述的任务。为此,我们提出了一种模型,该模型可以利用嘈杂的图像标题对,同时维持像Coco这样的传统人类注释数据集的描述性风格。我们的模型通过使用关键字和风格标记将内容从风格分开,使用单一目标是提示语言建模和比其他最近提出的更简单。在实验上,我们的模型在零拍摄设置中始终如一地占据了说明性质量和能力的现有方法。根据苹果酒公制,我们在使用外部数据时在Coco和Nocaps上获得新的最新状态。
translated by 谷歌翻译
连接视觉和语言在生成智能中起着重要作用。因此,已经致力于图像标题的大型研究工作,即用句法和语义有意义的句子描述图像。从2015年开始,该任务通常通过由Visual Encoder组成的管道和文本生成的语言模型来解决任务。在这些年来,两种组件通过对象区域,属性,介绍多模态连接,完全关注方法和伯特早期融合策略的利用而显着发展。但是,无论令人印象深刻的结果,图像标题的研究还没有达到结论性答案。这项工作旨在提供图像标题方法的全面概述,从视觉编码和文本生成到培训策略,数据集和评估度量。在这方面,我们量化地比较了许多相关的最先进的方法来确定架构和培训策略中最有影响力的技术创新。此外,讨论了问题的许多变体及其开放挑战。这项工作的最终目标是作为理解现有文献的工具,并突出显示计算机视觉和自然语言处理的研究领域的未来方向可以找到最佳的协同作用。
translated by 谷歌翻译
Novelty detection is commonly referred to as the discrimination of observations that do not conform to a learned model of regularity. Despite its importance in different application settings, designing a novelty detector is utterly complex due to the unpredictable nature of novelties and its inaccessibility during the training procedure, factors which expose the unsupervised nature of the problem. In our proposal, we design a general framework where we equip a deep autoencoder with a parametric density estimator that learns the probability distribution underlying its latent representations through an autoregressive procedure. We show that a maximum likelihood objective, optimized in conjunction with the reconstruction of normal samples, effectively acts as a regularizer for the task at hand, by minimizing the differential entropy of the distribution spanned by latent vectors. In addition to providing a very general formulation, extensive experiments of our model on publicly available datasets deliver on-par or superior performances if compared to state-of-the-art methods in one-class and video anomaly detection settings. Differently from prior works, our proposal does not make any assumption about the nature of the novelties, making our work readily applicable to diverse contexts.
translated by 谷歌翻译